Learning to Generate Music with Sentiment
ShuKumata.icon
The problem the authors try to solve:
1枚まとめ
https://gyazo.com/d5375e7fe327d45cf20802b6afabfb10
0. とりあえず一言
アブスト
Deep Learningのモデルはpolyphonicな音楽の自動作曲において有望な結果を示してきた。しかしながら、曲を狙ったゴールにガイドするようにモデルをコントロールするのは非常に難しい。我々は与えられた感情で自動的に音楽を生成するようにモデルをコントロールすることに興味を持っている。本論文では、与えられた感情で音楽を作曲する深層生成モデルを提案する。音楽生成に加えて、同様のモデルをsymbolicな音楽の感情分析にも用いた。我々はビデオゲームのサウンドトラックの新しいデータセットのsymbolicな音楽の感情を分類することにモデルのaccuracyの評価を行なった。結果は我々のモデルが良い予測精度を得ることができることを示していた。user studyでは、人間の被験者が、生成された音楽に意図された感情を含んでいることに同意した、しかしnegativeな音楽については曖昧な結果であった。
要するに?
1. どんなもの? 問題意識は?
音楽生成はDeep Learningの応用領域として重要な領域であり、いくつかのモデルはstrong short-time dependencyをもつ異なった音楽のpieceを高い質で生成することができている。この領域の主要な挑戦として、与えられた特徴で曲を生成するdisentanglingなモデルがあげられる。
応用でいうと、映画やゲームのサウンドトラックの生成や生物物理学のデータの超音波処理(sonification)、音楽療法や緩和医療を目的とした音楽生成など
このアプローチの評価のためには、感情でアノテーションされたsymbolicな音楽のデータが必要だが、存在しなかった(Music Information Retrievalにおいても感情検出は重要なトピックではあるが、Audio形式での研究しかなかった)ため、新しいデータセットをvalence-arousal(dimentional) model for emotionに従って、作成した。感情は30に要約し、valence axis to sentimentにマッピングした。またdatasetには、generative LSTMの学習用のラベリングされていない音楽も含まれている。 generative LSTMとロジスティック回帰を組み合わせた我々の手法と伝統的な分類器としてのLSTMを感情分類タスクにおいて比較し、約30%の精度改善が示された。さらに、user studyによって我々のモデルの生成性能についても分析した。positiveとnegativeで条件付けて生成した音楽について、被験者は生成されたpositiveな音楽については意図された感情があることに同意したが、negativeな音楽についてはどちらの評価もあり曖昧であった。
我々は本論文がsymbolicな音楽に対して感情分析を行い、感情を元に音楽生成を行うdisentangled deep learning modelを提案した最初の論文であると信じている。もう一つの貢献は、感情でアノテーションされたsymbolicな音楽のデータセットを構築したことである。これらの貢献によって、特にmulti-class problemとregression problemとしての感情を元にした音楽生成における将来の研究の方向性がひらけた。
2. 先行研究と比べてどこがすごい?
筆者曰く、symbolicな音楽に対する感情分析と、感情を元に音楽生成を行うdisentangled deep learning modelを提案した最初の論文で、感情分析においてベースラインの手法より約30%精度がよかった。
教師ありではなく、教師なしの手法なので高価なラベリングされたデータが大量には必要でなくなる。
感情でアノテーションされたMIDIデータがなかったため、VGMIDIというビデオゲームのサウンドトラックのMIDIのデータセットを作成。 3. 技術や手法のキモはどこ?
MIDIのpitchやvelocity等を自作の単語列に変換し、羅列する(e.g. A5の音符→n_86, 八分音符→d_eighth)。
感情分類を行う際のロジスティック回帰にL1正則化をかけることで、重要でない特徴量の重みを0にすることができ、感情のsignalを保持するneuronを際立たせることができた。
4. どうやって有効だと検証した?
音楽の感情分類
分類器として学習したLSTM(学習データはラベリングされているVGMIDIのデータから訓練データとして抽出されたデータのみ)とgenerative LSTM+ロジスティック回帰(学習データはunlabelなVGMIDIのデータも含む)を精度で比較し、約30%精度がよかった。(おそらくnega/posi分類のタスク)
教師なしの手法で教師ありと同等以上の精度が出せた。
精度が良くなったのは学習できるデータ量が多かったのが原因の可能性。
これはこれで良くて、アノテーションされたデータを用意するのは大変だけど、その処理を少なく良い精度を出せるモデルが提案されたということ。
感情で制御した音楽生成
遺伝的アルゴリズムを用いて、モデルがpositiveな/negativeな感情のpieceを生成するようなnueronの重みをそれぞれ探し、それぞれのモデルで生成したpieceを被験者に聞かせたところ、positiveなpieceについては確かにpositiveと判定されたが、negativeなpieceについてはpositiveなpieceよりはnegatieveよりではあるものの、評価は曖昧であった。
5. 議論はある?
6. 次に読むべき論文は?
LSTMで文章の感情の表現を得る(次の文字を予測することを訓練しただけにも関わらず)
本論文のモデルのベースになった手法
感情と音楽生成
second-order Markovモデルを用いて、ゲームのsceneのgraphがvalence-arousal modelに従ってアノテーションされているvideo gameのサウンドトラックを生成する。
小説からピアノの音楽を作曲する手法で、lexicon-basedなアプローチを用いて小説の感情を分類モデルで検出し、rule-basedにピアノのメロディをそれらの感情に沿って生成する。
コード進行グラフからランダムにコードのsequenceを作り、遺伝的アルゴリズムでメロディーを進化させ、メロディーとコードのsequenceのaccompanimentを生成する手法で、ゲームのBGMをin real-timeに生成するMetaComposeというFrameworkを提案。
Affective Algorithmic Music Compositionに、感情の分類モデルに従ってラベルづけされた音楽のcorpusからメロディとリズムを学習するようにした機械学習の観点からアプローチ。それぞれの(感情の)分類に対して、Indivisual HMMがpitchを、n-gramsが根底にあるharmonyをそれぞれ生成するように学習する。リズムは与えられた分類からランダムにサンプリング。
Deep Learningと(symbolicな)音楽生成(感情による操作を含むものは、筆者によると存在してなかった)
7. メモ
ネガポジ判定・生成しかできてないので、それ以上細かい条件付けでの判定・分析は価値がありそう。
教師なしでやる音楽のタスクって他にどんなことが考えられるだろうか。
リンク
筆者の実装